Exploratory Data Analysis of Prosper.com Loans

Rafael Buck

1. Dados

1.1 Sobre a Prosper.com

A Prosper.com é uma empresa líder na indústria de empréstimos peer-to-peer online. Os mutuários criam perfis e listagens (solicita empréstimos) nos investidores da Prosper.com tanto indivíduos quanto instituições, veem a listagem (pedido de empréstimo do mutuário) e decidem quanto emprestar o mutuário para o empréstimo.

As taxas de juros são tipicamente mais baixas para o mutuário do que para uma instituição financeira, como um banco. E vários investidores podem contribuir com o pedido de empréstimo de um mutuário, limitando o impacto global do risco do mutuário inadimplente no empréstimo para qualquer investidor e proporcionando um maior rendimento.

Neste projeto, vou apresentar uma análise de dados exploratórios em um conjunto de dados que contém informações sobre empréstimos. Este conjunto de dados pertence a Prosper.com e contém 113.937 empréstimos com 81 variáveis em cada empréstimo.

1.2 Why?

A minha motivação para trabalhar com esses dados é meu grande interesse pessoal em avaliar características do setor financeiro. Também me motiva todas as questões de eficiência, como por exemplo, otimizar as operações financeiras de forma e ser lucrativa para os dois lados, tanto do tomador do empréstimo (com crédito mais acessível, a taxas menores) quanto do emprestador (maior rentabilidade e redução de riscos de inadimplência). Além disso, esse tipo de análise pode ser ampliado para outras áreas como, por exemplo, análise de crédito.

## [1] "/Users/macbuck/Documents/Exploratory Analysis of Prosper Loans"
## [1] "Exploratory Analysis of Prosper Loans.Rmd" 
## [2] "Exploratory_Analysis_of_Prosper_Loans.html"
## [3] "Exploratory_Analysis_of_Prosper_Loans.Rmd" 
## [4] "prosperLoanData.csv"

1.3 Carregando os Dados e as Bibliotecas necessárias

O arquivo de dados ‘prosperLoanData.csv’ está lá. Este conjunto de dados possui 113.937 empréstimos com 81 variáveis em cada um, incluindo o valor, taxa de juros, status do pagamento, receita do mutuário, seu emprego atual, histórico do cartão de crédito e informações sobre seu último pagamento. A última atualização foi em 11.03.2014. Este dicionário de variáveis explica as variáveis do conjunto de dados.

1.4 Estrutura do conjunto de Dados

Abaixo um sumário da estrutura do arquivo de dados da Prosper.com.

## 'data.frame':    113937 obs. of  81 variables:
##  $ ListingKey                         : Factor w/ 113066 levels "00003546482094282EF90E5",..: 7180 7193 6647 6669 6686 6689 6699 6706 6687 6687 ...
##  $ ListingNumber                      : int  193129 1209647 81716 658116 909464 1074836 750899 768193 1023355 1023355 ...
##  $ ListingCreationDate                : Factor w/ 113064 levels "2005-11-09 20:44:28.847000000",..: 14184 111894 6429 64760 85967 100310 72556 74019 97834 97834 ...
##  $ CreditGrade                        : Factor w/ 9 levels "","A","AA","B",..: 5 1 8 1 1 1 1 1 1 1 ...
##  $ Term                               : int  36 36 36 36 36 60 36 36 36 36 ...
##  $ LoanStatus                         : Factor w/ 12 levels "Cancelled","Chargedoff",..: 3 4 3 4 4 4 4 4 4 4 ...
##  $ ClosedDate                         : Factor w/ 2803 levels "","2005-11-25 00:00:00",..: 1138 1 1263 1 1 1 1 1 1 1 ...
##  $ BorrowerAPR                        : num  0.165 0.12 0.283 0.125 0.246 ...
##  $ BorrowerRate                       : num  0.158 0.092 0.275 0.0974 0.2085 ...
##  $ LenderYield                        : num  0.138 0.082 0.24 0.0874 0.1985 ...
##  $ EstimatedEffectiveYield            : num  NA 0.0796 NA 0.0849 0.1832 ...
##  $ EstimatedLoss                      : num  NA 0.0249 NA 0.0249 0.0925 ...
##  $ EstimatedReturn                    : num  NA 0.0547 NA 0.06 0.0907 ...
##  $ ProsperRating..numeric.            : int  NA 6 NA 6 3 5 2 4 7 7 ...
##  $ ProsperRating..Alpha.              : Factor w/ 8 levels "","A","AA","B",..: 1 2 1 2 6 4 7 5 3 3 ...
##  $ ProsperScore                       : num  NA 7 NA 9 4 10 2 4 9 11 ...
##  $ ListingCategory..numeric.          : int  0 2 0 16 2 1 1 2 7 7 ...
##  $ BorrowerState                      : Factor w/ 52 levels "","AK","AL","AR",..: 7 7 12 12 25 34 18 6 16 16 ...
##  $ Occupation                         : Factor w/ 68 levels "","Accountant/CPA",..: 37 43 37 52 21 43 50 29 24 24 ...
##  $ EmploymentStatus                   : Factor w/ 9 levels "","Employed",..: 9 2 4 2 2 2 2 2 2 2 ...
##  $ EmploymentStatusDuration           : int  2 44 NA 113 44 82 172 103 269 269 ...
##  $ IsBorrowerHomeowner                : Factor w/ 2 levels "False","True": 2 1 1 2 2 2 1 1 2 2 ...
##  $ CurrentlyInGroup                   : Factor w/ 2 levels "False","True": 2 1 2 1 1 1 1 1 1 1 ...
##  $ GroupKey                           : Factor w/ 707 levels "","00343376901312423168731",..: 1 1 335 1 1 1 1 1 1 1 ...
##  $ DateCreditPulled                   : Factor w/ 112992 levels "2005-11-09 00:30:04.487000000",..: 14347 111883 6446 64724 85857 100382 72500 73937 97888 97888 ...
##  $ CreditScoreRangeLower              : int  640 680 480 800 680 740 680 700 820 820 ...
##  $ CreditScoreRangeUpper              : int  659 699 499 819 699 759 699 719 839 839 ...
##  $ FirstRecordedCreditLine            : Factor w/ 11586 levels "","1947-08-24 00:00:00",..: 8639 6617 8927 2247 9498 497 8265 7685 5543 5543 ...
##  $ CurrentCreditLines                 : int  5 14 NA 5 19 21 10 6 17 17 ...
##  $ OpenCreditLines                    : int  4 14 NA 5 19 17 7 6 16 16 ...
##  $ TotalCreditLinespast7years         : int  12 29 3 29 49 49 20 10 32 32 ...
##  $ OpenRevolvingAccounts              : int  1 13 0 7 6 13 6 5 12 12 ...
##  $ OpenRevolvingMonthlyPayment        : num  24 389 0 115 220 1410 214 101 219 219 ...
##  $ InquiriesLast6Months               : int  3 3 0 0 1 0 0 3 1 1 ...
##  $ TotalInquiries                     : num  3 5 1 1 9 2 0 16 6 6 ...
##  $ CurrentDelinquencies               : int  2 0 1 4 0 0 0 0 0 0 ...
##  $ AmountDelinquent                   : num  472 0 NA 10056 0 ...
##  $ DelinquenciesLast7Years            : int  4 0 0 14 0 0 0 0 0 0 ...
##  $ PublicRecordsLast10Years           : int  0 1 0 0 0 0 0 1 0 0 ...
##  $ PublicRecordsLast12Months          : int  0 0 NA 0 0 0 0 0 0 0 ...
##  $ RevolvingCreditBalance             : num  0 3989 NA 1444 6193 ...
##  $ BankcardUtilization                : num  0 0.21 NA 0.04 0.81 0.39 0.72 0.13 0.11 0.11 ...
##  $ AvailableBankcardCredit            : num  1500 10266 NA 30754 695 ...
##  $ TotalTrades                        : num  11 29 NA 26 39 47 16 10 29 29 ...
##  $ TradesNeverDelinquent..percentage. : num  0.81 1 NA 0.76 0.95 1 0.68 0.8 1 1 ...
##  $ TradesOpenedLast6Months            : num  0 2 NA 0 2 0 0 0 1 1 ...
##  $ DebtToIncomeRatio                  : num  0.17 0.18 0.06 0.15 0.26 0.36 0.27 0.24 0.25 0.25 ...
##  $ IncomeRange                        : Factor w/ 8 levels "$0","$1-24,999",..: 4 5 7 4 3 3 4 4 4 4 ...
##  $ IncomeVerifiable                   : Factor w/ 2 levels "False","True": 2 2 2 2 2 2 2 2 2 2 ...
##  $ StatedMonthlyIncome                : num  3083 6125 2083 2875 9583 ...
##  $ LoanKey                            : Factor w/ 113066 levels "00003683605746079487FF7",..: 100337 69837 46303 70776 71387 86505 91250 5425 908 908 ...
##  $ TotalProsperLoans                  : int  NA NA NA NA 1 NA NA NA NA NA ...
##  $ TotalProsperPaymentsBilled         : int  NA NA NA NA 11 NA NA NA NA NA ...
##  $ OnTimeProsperPayments              : int  NA NA NA NA 11 NA NA NA NA NA ...
##  $ ProsperPaymentsLessThanOneMonthLate: int  NA NA NA NA 0 NA NA NA NA NA ...
##  $ ProsperPaymentsOneMonthPlusLate    : int  NA NA NA NA 0 NA NA NA NA NA ...
##  $ ProsperPrincipalBorrowed           : num  NA NA NA NA 11000 NA NA NA NA NA ...
##  $ ProsperPrincipalOutstanding        : num  NA NA NA NA 9948 ...
##  $ ScorexChangeAtTimeOfListing        : int  NA NA NA NA NA NA NA NA NA NA ...
##  $ LoanCurrentDaysDelinquent          : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ LoanFirstDefaultedCycleNumber      : int  NA NA NA NA NA NA NA NA NA NA ...
##  $ LoanMonthsSinceOrigination         : int  78 0 86 16 6 3 11 10 3 3 ...
##  $ LoanNumber                         : int  19141 134815 6466 77296 102670 123257 88353 90051 121268 121268 ...
##  $ LoanOriginalAmount                 : int  9425 10000 3001 10000 15000 15000 3000 10000 10000 10000 ...
##  $ LoanOriginationDate                : Factor w/ 1873 levels "2005-11-15 00:00:00",..: 426 1866 260 1535 1757 1821 1649 1666 1813 1813 ...
##  $ LoanOriginationQuarter             : Factor w/ 33 levels "Q1 2006","Q1 2007",..: 18 8 2 32 24 33 16 16 33 33 ...
##  $ MemberKey                          : Factor w/ 90831 levels "00003397697413387CAF966",..: 11071 10302 33781 54939 19465 48037 60448 40951 26129 26129 ...
##  $ MonthlyLoanPayment                 : num  330 319 123 321 564 ...
##  $ LP_CustomerPayments                : num  11396 0 4187 5143 2820 ...
##  $ LP_CustomerPrincipalPayments       : num  9425 0 3001 4091 1563 ...
##  $ LP_InterestandFees                 : num  1971 0 1186 1052 1257 ...
##  $ LP_ServiceFees                     : num  -133.2 0 -24.2 -108 -60.3 ...
##  $ LP_CollectionFees                  : num  0 0 0 0 0 0 0 0 0 0 ...
##  $ LP_GrossPrincipalLoss              : num  0 0 0 0 0 0 0 0 0 0 ...
##  $ LP_NetPrincipalLoss                : num  0 0 0 0 0 0 0 0 0 0 ...
##  $ LP_NonPrincipalRecoverypayments    : num  0 0 0 0 0 0 0 0 0 0 ...
##  $ PercentFunded                      : num  1 1 1 1 1 1 1 1 1 1 ...
##  $ Recommendations                    : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ InvestmentFromFriendsCount         : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ InvestmentFromFriendsAmount        : num  0 0 0 0 0 0 0 0 0 0 ...
##  $ Investors                          : int  258 1 41 158 20 1 1 1 1 1 ...
##  [1] "Cancelled"              "Chargedoff"            
##  [3] "Completed"              "Current"               
##  [5] "Defaulted"              "FinalPaymentInProgress"
##  [7] "Past Due (>120 days)"   "Past Due (1-15 days)"  
##  [9] "Past Due (16-30 days)"  "Past Due (31-60 days)" 
## [11] "Past Due (61-90 days)"  "Past Due (91-120 days)"

1.4.1 Principais variáveis que serão utilizadas na análise

Aqui são listadas as principais variáveis que serão analisadas.

Term: Duração do empréstimo em meses.

LoanStatus: Status atual do empréstimo:

  • Cancelled
  • Chargedoff
  • Completed
  • Current
  • Defaulted
  • FinalPaymentInProgress
  • PastDue (acompanha um bucket de período de inadimplência)

BorrowerState: Estado do mutuário abreviado com duas letras.

ListingCategory: Motivo do empréstimo segundo o mutuário.

  • 0 - Not Available
  • 1 - Debt Consolidation
  • 2 - Home Improvement
  • 3 - Business
  • 4 - Personal Loan
  • 5 - Student Use
  • 6 - Auto
  • 7 - Other
  • 8 - Baby&Adoption
  • 9 - Boat
  • 10 - Cosmetic Procedure
  • 11 - Engagement Ring
  • 12 - Green Loans
  • 13 - Household Expenses
  • 14 - Large Purchases
  • 15 - Medical/Dental
  • 16 - Motorcycle
  • 17 - RV
  • 18 - Taxes
  • 19 - Vacation
  • 20 - Wedding Loans
##  [1] "Not Available"       "Debt Consolidation"  "Home Improvement"   
##  [4] "Business"            "Personal loan"       "Student Use"        
##  [7] "Auto"                "Other"               "Baby & Adoption"    
## [10] "Boat"                "Cosmetic Procedures" "Engagement Ring"    
## [13] "Green Loans"         "Household Expenses"  "Large Purchases"    
## [16] "Medical/Dental"      "Motorcycle"          "RV"                 
## [19] "Taxes"               "Vacation"            "Wedding Loans"

CreditScoreRangeLower: O menor valor que representa o alcance da pontuação de crédito do mutuário conforme fornecido por uma agência de rating de crédito ao consumidor.

CreditScoreRangeUpper: o valor superior que representa o alcance da pontuação de crédito do mutuário conforme fornecido por uma agência de rating de crédito ao consumidor.

LoanOriginalAmount: Valor original do empréstimo.

Investors: Número de investidores que financiam o empréstimo.

CloseDate: Data de fechamento do empréstimo.

1.4.2 Variáveis adicionais, para trabalhos futuros

Aqui são listadas outras variáveis que também são interessantes, mas que serão deixadas para um trabalho futuro.

BankcardUtilization: a porcentagem de crédito rotativo disponível que é utilizado no momento em que o perfil de crédito foi puxado.

IncomeRange: a porcentagem de crédito rotativo disponível que é utilizado no momento em que o perfil de crédito foi puxado.

ListingCreationDate: a data em que o regisro foi criado.

Occupation: ocupação selecionada pelo mutuário no momento da criação do registro.

IsBorrowerHomeowner: esse eu achei interessante, é quando um mutuário tem uma hipoteca em seu perfil de crédito ou fornece documentação confirmando que eles é um proprietário de uma casa.

BorrowerAPR: taxa de percentagem anual do avalista.

BorrowerRate: taxa de juros do mutuário para este empréstimo.

Recommendations: número de recomendações que o mutuário teve no momento em que o registro foi criado.

TotalProsperLoans: número de empréstimos da Prosper.com do mutuário no momento da criação do registro. Esse valor será NULL se o mutuário não tiver empréstimos prévios.

DebtTocomeRatio: o índice dívida.

StatedMonthlyIncome: a renda mensal que o mutuário declarou no momento em o registro foi criado.

2. Gráficos e Análises

2.1 Seção de Gráficos Univariados

2.1.1 Histograma de duração de empréstimos

Aqui é interessante ver a quantidade de emprestimos com 36 meses de duração são aqueles que mais foram realizados. Também é interessante perceber que a Prosper.com parece atrair empréstimos de curta duração 12-60 meses no máximo.

## 
##    12    36    60 
##  1614 87778 24545

2.1.2 Empréstimos por Estado

Vamos dar uma olhada em empréstimos por Estado.

## 
##          AK    AL    AR    AZ    CA    CO    CT    DC    DE    FL    GA 
##  5515   200  1679   855  1901 14717  2210  1627   382   300  6720  5008 
##    HI    IA    ID    IL    IN    KS    KY    LA    MA    MD    ME    MI 
##   409   186   599  5921  2078  1062   983   954  2242  2821   101  3593 
##    MN    MO    MS    MT    NC    ND    NE    NH    NJ    NM    NV    NY 
##  2318  2615   787   330  3084    52   674   551  3097   472  1090  6729 
##    OH    OK    OR    PA    RI    SC    SD    TN    TX    UT    VA    VT 
##  4197   971  1817  2972   435  1122   189  1737  6842   877  3278   207 
##    WA    WI    WV    WY 
##  3048  1842   391   150

Talvez fique mais interessante colocar em um mapa, ao invés de hitograma. No entanto, pelo histograma é possível observar um ponto negativo: é que mais de 5.000 empréstimos não especificam em que estado do mutuário.

Isso deu um pouco de trabalho, mas é legal para verificarmos o posicionamento estratégico da Prosper.com geoespacialmente. Como vemos, o Estado da Califórnia é o com maior número de empréstimos, o que faz bastante sentido já que a empresa é de lá. Outros estados como Texas, Nova York, Illinois e Flórida também se destacam.

2.1.2.1 Fiquei curioso pelos empréstimos sem BorrowerState definido

Acabei ficando curioso pelos empréstimos sem BorrowerState definido, vou dar uma olhada nas característica desses empréstimos

##       Term                     LoanStatus   BorrowerState 
##  Min.   :36   Completed             :3883          :5515  
##  1st Qu.:36   Chargedoff            :1040   AK     :   0  
##  Median :36   Defaulted             : 589   AL     :   0  
##  Mean   :36   Cancelled             :   3   AR     :   0  
##  3rd Qu.:36   Current               :   0   AZ     :   0  
##  Max.   :36   FinalPaymentInProgress:   0   CA     :   0  
##               (Other)               :   0   (Other):   0  
##            ListingCategory CreditScoreRangeLower CreditScoreRangeUpper
##  Not Available     :5474   Min.   :  0.0         Min.   : 19.0        
##  Debt Consolidation:  14   1st Qu.:560.0         1st Qu.:579.0        
##  Personal loan     :  12   Median :620.0         Median :639.0        
##  Business          :   7   Mean   :617.9         Mean   :636.9        
##  Other             :   4   3rd Qu.:680.0         3rd Qu.:699.0        
##  Auto              :   3   Max.   :880.0         Max.   :899.0        
##  (Other)           :   1   NA's   :591           NA's   :591          
##  LoanOriginalAmount   Investors                    ClosedDate  
##  Min.   : 1000      Min.   :  1.00   2010-02-09 00:00:00:  15  
##  1st Qu.: 2500      1st Qu.: 24.50   2007-03-20 00:00:00:  14  
##  Median : 3600      Median : 51.00   2009-04-14 00:00:00:  14  
##  Mean   : 5412      Mean   : 82.65   2009-08-31 00:00:00:  14  
##  3rd Qu.: 6500      3rd Qu.:110.00   2009-02-18 00:00:00:  13  
##  Max.   :25000      Max.   :657.00   2009-02-23 00:00:00:  13  
##                                      (Other)            :5432  
##         state     
##  alabama   :   0  
##  alaska    :   0  
##  arizona   :   0  
##  arkansas  :   0  
##  california:   0  
##  (Other)   :   0  
##  NA's      :5515

Como podemos verificar, a maioria dos empréstimos sem Estado definido foram completos (Completed), ou cobrados por fora (Chargedoff, provavelmente judicialmente ou por acordo). Todos de 36 meses, com uma média de $3.600,00 de valor original de empréstimo e a grande maioria não especificou o que faria com o empréstimo (Not Available).

Olhando a data de fechamento (ClosedDate), percebe-se que esses registros são de 2005 a 2009. Depois disso não há mais ocorrência. O que é bom. Provavelmente a Prosper.com introduziu algum campo de validação ou adicional a seu sistema para tornar obrigatório a especificação do Estado.

2.1.3 Empréstimos por Categoria (Propósito)

## 
##       Not Available  Debt Consolidation    Home Improvement 
##               16965               58308                7433 
##            Business       Personal loan         Student Use 
##                7189                2395                 756 
##                Auto               Other     Baby & Adoption 
##                2572               10494                 199 
##                Boat Cosmetic Procedures     Engagement Ring 
##                  85                  91                 217 
##         Green Loans  Household Expenses     Large Purchases 
##                  59                1996                 876 
##      Medical/Dental          Motorcycle                  RV 
##                1522                 304                  52 
##               Taxes            Vacation       Wedding Loans 
##                 885                 768                 771

É interessante observar aqui que a grande maioria declara que pega dinheiro empresatado para quitar outros débitos. Novamente, muitos valores sem definir o porpósito específico do empréstimo: Not available e Other (que acaba tendo o mesmo significado de Other :P).

2.1.4 Histograma do número de empréstimos por valor total

Agora vamos verificar o número de empréstimos pelo valor total do empréstimo.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1000    4000    6500    8337   12000   35000
## [1] 949894347

Olhando o gráfico e a tabela, percebemos que o ticket médio é de $8.337,00, 75% dos empréstimos são de $1.000,00 a $12.000,00.

2.1.5 Histograma do número de empréstimos por número de investidores

Por fim, vamos dar uma verificada no número de investidores por empréstimo.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00    2.00   44.00   80.48  115.00 1189.00

Interessante ver que 25% do total dos empréstimos é realizado por 1 ou dois investidores e 75% dos empréstimos por até 115 investidores. Existem empréstimos com até 1.189 investidores, no entanto, a maioria deles é realizada por 1.

2.2 Seção de Gráficos Bivariados

2.2.1 Qual Estado recebeu a maior quantidade de empréstimos?

Vamos dar uma olhada no total de empréstimos (em volume de dinheiro) tomados por Estado.

Novamente, estados como Texas, Nova York, Illinois e Flórida também se destacam, além é claro da Califórnia. No período analisado, cerca de $132,075.153 foram emprestados em CA de um total de $949.894.347 nos EUA inteiro (CA representa 13,9% do total emprestado nos EUA). A Prosper.com nesse período quase atingiu 1 bilhão em empréstimos.

2.2.2 Qual Estado recebeu a maior quantidade de investidores?

Novamente, interessante ver que os mesmos estados também possuem maiores números de investidores. Aqui não há distinção se um mesmo investidor emprestou x vezes no mesmo estado ou em mais estados. Apenas representa o número de vezes que investidores emprestaram dinheiro (ou seja, um único investidor pode ter participado de 100 empréstimos em CA e 50 em NY, a contagem total desse gráfico considera que ele emprestou 150 vezes).

2.2.3 Utilizando ggpairs para observar outras variáveis de interesse

Antes de avançar para análise com gráficos bivariados, vamos utilizar a função ggpairs para gerar uma matriz com mu subset do dataframe. Foram utilizadas 1.000 amostras para não demorar muito.

Podemos verificar que os scores de crédito, CreditScoreRangeUpper e CreditScoreRangeLower, apresentam uma impressionante correlação de 1. É também possível ver que o gráfico entre essas duas variáveis é praticamente uma reta. Os scores de crédito possuem uma correlação significante com LoanOriginalAmount, assim como com Investors. Por fim, chamou a atenção a correlação entre LoanOriginalAmount e Investors. Vamos investigar isso adiante.

2.2.4 Qual a relação entre a quantidade emprestada e scores?

Uma coisa que interessou foi a relação entre LoanOriginalAmount com CreditScoreRangeUpper e CreditScoreRangeLower. Pra isso, vamos colocar os dois em um mesmo grid para comparar.

É possível observar que LoanOriginalAmount aumenta quand CreditScoreRangeUpper e CreditScoreRangeLower aumentam. No entanto, é possível observar que também tem um grupo de alto risco que opera empréstimos na Prosper.com, com CreditScoreRangeUpper e CreditScoreRangeLower baixos, mas com LoanOriginalAmount abaixo dos $10.000.

## 
##  Pearson's product-moment correlation
## 
## data:  loans_subset$CreditScoreRangeLower and loans_subset$CreditScoreRangeUpper
## t = 1.5976e+10, df = 113340, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  1 1
## sample estimates:
## cor 
##   1

Como o gráfico é praticamente igual, e a relação entre CreditScoreRangeUpper e CreditScoreRangeLower é linear (essa é uma relação muito forte, com altíssima correlação, conforme gráfico acima), vamos utilizar daqui para frente somente o CreditScoreRangeUpper para a análise multivariada, baseando-se no gráfico abaixo.

2.2.5 Qual a relação entre a quantidade emprestada e número de investidores?

Por fim, vamos verificar se há relação no número de investidores por empréstimo, e o valor total do empréstimo.

## 
##  Pearson's product-moment correlation
## 
## data:  loans_subset$Investors and loans_subset$LoanOriginalAmount
## t = 138.71, df = 113940, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.3751140 0.3850494
## sample estimates:
##       cor 
## 0.3800926

Até que há uma correlação. No entanto, essa correlação é fraca (pois seu valor absoluto está entre 0,3 e 0,5). Na verdade, pelo gráfico, parace que existem pelo menos 4 linhas horizontais de crédito que atraem de 1 a 500 investidores (em y = $25.000, $20.000, $15.000 e $10.000) e uma linha vertical com investidores individuais que empresta de $1.000 até $35.000. Isso poderia ser útil para analisar as carteiras de empréstimos mais requisitadas (ou disponibilizadas na Prosper.com) e segmentos de investidores.

2.2.6 Qual a relação entre a score de crédito e número de investidores?

## 
##  Pearson's product-moment correlation
## 
## data:  loans_subset$Investors and loans_subset$CreditScoreRangeUpper
## t = 94.915, df = 113340, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.2659485 0.2767345
## sample estimates:
##     cor 
## 0.27135

Esse último gráfico representa a correlação entre CreditScoreRangeUpper e Investors. Faz sentido o número de investidores aumentar com o aumento do score de crédito, uma vez que é um negócio baseado na confiança de que o mutuário vai quitar o empréstimo.

2.3 Seção de Gráficos Multivariados

2.3.1 Porque as pessoas pegam dinheiro emprestado da Prosper.com?

A ideia aqui é explorar a relação entre o status do empréstimo com o propósito dele e com o volume do empréstimo. Ou seja, pessoas que pegam empréstimo de cerca de $30.000 para seus negócios (Business), costumam ter quais status? Para ter uma visão disso, o gráfico abaixo procura ilustrar essa relação.

De fato, interessante. Note que empréstimos para férias (Vacation) de valor alto costumam apresentar inadimplência de 1 a 2 meses. É possível verificar outras relações interessantes. Na seção seguinte vamos melhorar esse gráfico para visualizar melhor a relação entre essas variáveis.

2.3.2 Qual a relação entre score e investidor com inadimplentes e total de valor de empréstimo?

Aqui, a ideia é agrupar todos os inadimplentes: ‘Defaulted’,‘Chargedoff’,‘Past Due (61-90 days)’,‘Past Due (91-120 days)’,‘Past Due (>120 days)’ em maus mutuários e o restante como bons mutuários.

## 
## Delinquent       Good 
##      17643      96294

O primeiro gráfico (Loan Purpose by Borrower Status by Original Amount) é possível observar para que propósitos os empréstimos são realizados e quais suas características de inadimplência.

Nele observamos que os empréstimos realizados com o propósito de compras de barco (Boat) e pagamento de férias (Vacation), há uma maior quantidade de valores emprestados por maus mutuários do que bons mutuários, enquanto que empréstimos realizados com o propósito de pagamentos de impostos (Taxes), motocicletas (Motorcycle) e reformas (House Improvement), há uma maior quantidade de valores emprestados por bons mutuários do que maus mutuários.

Ainda, para uso em Business temos os maiores valores, enquanto que para Debt Consolidation temos empréstimos maiores (apesar desse último ser o tipo de empréstimo que a Prosper.com mais realiza). Esse modelo será excelente para, em trabalhos futuros, utilizar machine learning para classificação dos empréstimos para algoritmos de métodos supervisionados.

O último gráfico (Loan Amount by Credit Score by Borrower Status) também indica a possíbilidade de se utilizar certas variáveis em algoritmos de métodos não-supervisionados, de forma a clusterizar os empréstimos. Por exemplo, mutuários com score próximo de 0 e próximo de 500 para empréstimos de $10.000 e próximo de 600 para empréstimos próximos de $20.000 tem boa chance de ser inadimplentes.

O segundo gráfico acabou não mostrando relação entre o número de investidores no empréstimo com a inadimplência.


3. Gráficos Finais

3.1 Primeiro Gráfico

Conforme comentado, as operações da Prosper.com estão concentradas no Estado da Califórnia (13,9% de todos os empréstimos realizados no período). No entanto, estados como Texas, Nova York, Illinois e Flórida também se destacam. Isso indica que um estudo de viabilidade de abertura de um escritório da Prosper.com na costa leste pode indicar uma forma de crescer as operações nesses estados, assim como acontece em CA.

3.2 Segundo Gráfico

Aqui é possível observar para que propósitos os empréstimos são realizados e quais suas características de inadimplência. Por exemplo, para uso em Business temos os maiores valores, enquanto que para Debt Consolidation temos empréstimos maiores (apesar desse último ser o tipo de empréstimo que a Prosper.com mais realiza). Conforme comentado anteriormente, nele observamos que os empréstimos realizados com o propósito de compras de barco (Boat) e pagamento de férias (Vacation), há uma maior quantidade de valores emprestados por maus mutuários do que bons mutuários, enquanto que empréstimos realizados com o propósito de pagamentos de impostos (Taxes), motocicletas (Motorcycle) e reformas (House Improvement), há uma maior quantidade de valores emprestados por bons mutuários do que maus mutuários.

É interessante ver como 3 dimensões formam uma espécie de “assinatura” de empréstimos que resultaram em inadimplência e de empréstimos que estão okey. Exelente para utilizar com machine learning, seja para clusterizar empréstimos em certas categorias, seja para criar modelos preditivos para indicar se um futuro empréstimo para um mutuário tem potencial de não ser pago ou de ser pago. Po exemplo, se uma solução de machine learning fosse usada apenas com base nessas 3 dimensões, poderíamos dizer que empréstimos de Home Improvement com valores abaixo de $10.000 tem boas chances de se tornarem inadimplentes.

Uma aplicação bastante interessante aqui seria elaborar um modelo de machine learning utilizando métodos de aprendizagem supervisionada, classificando as operações históricas em duas variáveis categóricas (Delinquent e Good), para prever se um futuro ou atual empréstimo/mutuário potencialmente poderia se tornar inadimplente.

3.3 Terceiro Gráfico

Por fim, nesse gráfico é possível observar uma certa clusterização. Mutuários com score próximo de 0 e próximo de 500 para empréstimos de $10.000 e próximo de 600 para empréstimos próximos de $20.000 tem boa chance de ser inadimplentes. Novamente, essa informação com machine learning poderia ser muito útil para aumentar a eficiência operacional da Prosper.com.


4. Sumário e Reflexão

4.1 Melhoria nos dados

4.1.1 Informações de geolocalização

Existem muitos empréstimos onde o estado do mutuário não foi especificado. Uma melhoria para a Prosper.com seria deixar o preenchimento desse dado como obrigatório, até por uma questão de confirmação de onde o mutuário está. Adicionalmente, poderia ser adicionada a cidade do mutuário e a cidade do emprestador, de forma a entender onde a Prosper.com está tendo sucesso e onde é necessária maior ação de marketing ou comercial para ampliar os negócios.

4.1.2 Informações de propósito do empréstimo

Novamente, existem muitos valores não especificados: “Not available” e “Other”. Seria importante especificar, até para ajudar como medida de risco de futura inadimplência.

4.1.3 Informações de investidor

Uma coisa que poderia ser aprimorada no Prosper.com são as informações sobre os investidores, de forma a verificar características de quem empresta dinheiro para futuramente promover mais o negócio e conseguir mais investidores.

4.2 Descobertas

A principal descoberta foi a concentração das operações da Prosper.com no Estado da Califórnia (13,9% de todos os empréstimos realizados no período). Foi interessante também observar para que propósitos os empréstimos são realizados e quais suas características de inadimplência. Essa característica pode servir bastante para análise de c’redito conforme comentado (usando machine learning). Por fim, também foi possível verificar uma relação interessante entre valor do empréstimo, score de crédito do mutuário e situação do empréstimo (inadimplente ou não), que também pode ser usado com propósito de análise de créditos futuros.

4.3 Trabalhos futuros

Como trabalho futuro, conforme indicado no gráfico abaixo, pode-se analisar mais características do mutuário, como recomendações, bens e Prosper score, de forma a caracterizar melhor o bom pagador e o inadimplente. Isso aumentaria a eficiência operacional, criando um sistema de forecasting (usando algoritmos supervisionados de machine learning) indicando se um futuro empréstimo para um mutuário tem potencial de não ser pago ou de ser pago.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Outro trabalho futuro, muito interessante, é avaliar o potencial de crescimento do Prosper.com nos demais estados da costa leste, e decidir por abrir ou não um escritório em algum dos estados para ampliar o faturamento. Esse trabalho poderia incluir uma análise temporal da evolução dos empréstimos, inadimplência, taxas, por estado. Ficaria muito bacana!